张俊妮:什么样的数据才有价值?“数据二十条”与国家数据局的启示
The following article is from 北大国发院 Author 张俊妮
2023年3月28日晚,北大国发院【朗润•格政】第161期在承泽园及线上同步举行。本期活动由北大国发院和北大数字金融研究中心主办,特邀北大国发院特约研究员许宪春,北大国发院经济学教授、教育部长江青年学者李力行,北大国发院助理院长、长聘副教授、数字金融研究中心副主任黄卓,北大国发院长聘副教授张俊妮等多位学者共同研讨数字经济的新征程。本文根据北大国发院长聘副教授张俊妮的主旨演讲整理。
作 者:张俊妮图 片:图虫创意来 源:北大国发院(ID:nsd-pku)
《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》被简称为“数据二十条”,其主线是要坚持促进数据合规高效的流通使用,赋能实体经济。
在我看来,“合规高效”这一点非常重要。“合规”是对个人信息、国家信息安全和企业商业秘密的保护。“高效”就是一定要促进经济发展。“数据二十条”的目标是充分实现数据要素价值,促进全体人民共享数字经济发展的红利。这有两层含义:一是要充分地实现这一价值,二是不希望造成新的数字鸿沟。
国家数据局是今年刚刚组建的,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等,由国家发展和改革委员会管理。
以上是今天我演讲的主要背景,接下来我想从“什么样的数据才有价值?”这一角度来分享我的观点。
一、丰富的数据有价值企业在经营过程中,内部会不断积累越来越多的数据,这本身有一定的价值。如果不同企业之间的数据还能流通,也很有价值。
我们需要将不同来源的数据合并形成新的数据。目前大家谈个人数据谈得比较多,非常重视个人信息保护。但还有很多数据不以个人为单位,而是关于企业、地理位置、车辆、设备等等。比如,物联网数据就是很大一个领域。
在一类情形下,一家企业的数据集具有一些特征,另一家企业的数据集则具有另一些特征,要把这两家企业的数据连在一起,我们就需要用到数据链接,把同一个ID的数据链接在一起。在另一类情形下,一家企业有一部分人、车辆、位置等的数据,另一家企业有另外一些人、车辆、位置等的数据。要把这些数据合并起来,数据的互通和互操作就比较重要。只有在数据能够互通互操作的情形下,才能把数据合并在一起,数据才能变得丰富,实现价值提升。
1、 数据链接
数据链接该如何实现?一种方式是用现成的ID,比如加密身份证号、移动设备ID、车架号等。我国目前允许用什么样的ID进行链接有时不是完全明确。国外还有一些技术走在前列的企业用算法进行链接,比如LexisNexis的LexID。LexID为每个人提供一个唯一的标识符,这个标识符不依赖于个人身份的可识别信息,它不是来自于社会安全号码、姓名、电话号码等等能够识别个人身份的信息,而是自己产生了一个新的ID。根据这个LexID把来自政府部门的公共数据和来自于其他机构的专有数据链接在一起,就可以创建关于个人的全面视图,帮助打击欺诈、降低风险等等。一旦来自各方面的数据链接起来,作用很强大。我们需要允许这样的工作。
“数据二十条”明确指出要以维护国家数据安全、保护个人信息和商业秘密为前提。
要达到上述要求,首先要明确什么样的数据涉及国家数据安全、个人信息保护和商业秘密保护。倘若无法明确这方面内容,又强调要压实主体责任,大家就会畏首畏尾,建立了很多数据交易所也可能没什么交易量,因为大家不清楚什么样的数据可流通,什么样的数据不可流通。
其次,需要明确可以用什么样的数据项做链接。比如大家都有身份证,那么用加密身份证是否可行?这样的问题也值得探讨。在国外,数据交易会使用加密的电子邮件、加密的电话号码等作为链接ID。在这方面,我国要明确能用什么ID帮助大家把数据链接起来。
再次,需要明确什么样的数据项可以通过链接进行流通。这样大家才有可能真正行动起来。
最后,要明确对买卖双方的资质要求,比如个人数据不是任何人都能触碰的。
2、数据互通和可操作
“数据二十条”里提到要进行数据采集和接口标准化。在我看来,这应该是一种适度的标准化,不能从一开始就将其“规定死”,不能要求一切都必须按照这个标准化来做。
我认为这种标准化适用于两大方面,一是公共数据,因为公共数据是政府部门的,从中央到地方可以制定一套关于公共数据的标准,大家可以据此放出数据;二是物联网数据,物联网数据里有各种协议,不同协议间的互操作比较成问题,可以通过一些比较好的标准化措施,让物联网里的数据都实现共享。
为什么说“适度标准化”就是最好的状态?这主要因为新技术和新场景不断出现,数字技术的进步比我们想象的要快,因此不可能完全进行限定,完全标准化,否则就是自我禁锢。如果一味地要求数据提供者按照现有标准去做,这样的要求比较高,即便他能够达到要求,到时候可能又出现新技术和新场景。不同数据提供者之间的协调也是一个难点,尤其是有多个数据提供者的时候,协调工作会非常繁琐,因此“适度标准化”是更符合实际的选择。
要整合不同数据类型和格式的数据,除了标准化之外,还可以采用技术方式。比如物联网领域中存在很多这样的技术方,他们的工作就是将来源不同的数据整合起来。我们既需要标准化,也需要利用强大的技术把不同数据整合起来。
3、谁投入、谁贡献、谁受益
“数据二十条”中提到了“谁投入、谁贡献、谁受益”,公共数据部分提到了“推动用于公共治理、公益事业的公共数据有条件无偿使用,探索用于产业发展、行业发展的公共数据有条件有偿使用。”
这一点我们和国外的做法有所不同。美国最开始提出“开放数据运动”,尝试把很多政府数据都放在“data.gov”网站上,后来欧盟、日本也都跟进。在这些网站上,很多数据不需要注册就能直接下载。这样的做法也存在问题,那就是无法追踪谁下载了什么数据,什么样的数据起到了什么作用。我国的数据开放是有条件的,但有些是无偿使用,有些是有偿使用。
以前大家都认为政府部门的公共数据就应该免费提供给大家使用。然而实际情况是,公共数据只有被有偿使用才真正有利于公共数据的可持续供给。把公共数据放到网上或者利用起来,把这些数据转化成机器可读的形式,后续还需要不断更新等等,这些工作都需要投入很多人员、技术和资源,因此只有有偿使用才有利于公共数据更加可持续地供给。
国外网站上的公共数据,大部分是颗粒度比较粗的、可以免费拿到的数据。颗粒度比较粗的数据可以允许它有更广泛的开放范围,有条件无偿使用。颗粒度细的数据,其开放范围应该更有限,有条件有偿使用。比如精细地图一定要收费,有资质的机构才能用。此外还应对科研机构和商业机构设定不同的收费标准。公共数据的买方资质标准和收费标准应公开,以减少寻租空间。否则一些有“关系”的人就可能通过一些方式,免费或缴纳较少的费用就能使用数据,那些没有“关系”的人却怎么也拿不到数据。
刚刚我们提到data.gov网站上美国的免费公共数据,其实这些数据的下载量很少,并没有那么多人使用。美国还有很多收费公共数据,有些收费标准还不低,比如我曾听说一份有关车辆的报告售价达到18美元,当然有资质的机构才能购买。我们应该突破公共数据不能收费这种看法,“数据二十条”也明确提出了这一点。
4、如何探索个人回报机制?
“数据二十条”里提到要探索由受托者代表个人利益,监督市场主体对个人信息数据进行采集、加工、使用的机制。假如有这样的受托者能够代表个人去监督市场主体采集个人数据的行为,那我们是否也可以探索通过这样的受托者给予个人回报的机制?在日本有一种个人数据信托银行,已经探索出这样一种模式:个人把信息存在银行,随时可取出,随时可撤销;信托银行代表个人去跟收集信息的大公司谈,公司再把回报给到个人。
5、取缔数据流通非法产业
“数据二十条”提出要严厉打击黑市交易,取缔数据流通的非法产业。目前数据黑市的交易额超过了正规交易,这可能与正规交易的规则尚不明确有关。比如2022年初的一篇报道曾提到“我国数据黑市交易市场规模超过1500亿元”,还有一种说法是“一切皆可爬”。黑市能按需爬取数据,形成完整产业链,在数据的获取、加工、贩卖、流通等各环节都拥有团队,所以黑市交易额很大。目前黑市交易的有些数据,在欧美等地,如果满足合规要求,实际上可以通过正规渠道进行交易。我国也应该制定一些合规要求,让这些数据一旦合规就可以通过正规渠道进行交易。猖狂的黑市交易会严重损害正规交易,比如有些人通过非法手段获得数据,就和竞争对手有不公平的竞争,这会导致严重的后果。
二、质量高的数据有价值数据挖掘领域有一条“金准则”——垃圾进,垃圾出。意思是进来的数据如果质量很差,出来的结果肯定不好。
即使是ChatGPT也很讲究数据质量。ChatGPT用了一个很大的数据库,该数据库已经存在很长时间,但以前的语言模型都没用到。ChatGPT团队花了很大力气去控制数据质量,筛掉那些质量低的数据,同时把另一些高质量的数据加进来,作为训练数据,这个令人震惊的大语言模型才出现在世人面前。
数据质量需要精细的打磨,不看到数据、不每天处理数据,很难得到高质量数据。“原始数据不出域、数据可用不可见”只适用于质量高的数据。对于质量低的数据,原始数据都看不到,无法判断和提升数据质量,直接用很难有好效果。要整合不同来源的数据并打磨数据质量,需要一批合规的数据集成商来从事这项工作,因为这是日常的、很细致的工作,还需要和原始数据来源方去沟通数据质量问题让其改正等等。在这种整合数据的细致过程中,数据集成商的工作可能不适合在场内完成,因为场内是中介方,很难想象数据集成商不断发现数据质量问题时,要不断通过中介方和原始数据来源方沟通改正数据。这可能更适合场外交易。国际上也是如此。2021年,全球数据中介交易的市场规模估值为2571.6亿美元,其中数据交易所的市场规模仅为7.8亿美元。看对未来的预测也是如此,预计到2029年,全球数据中介交易的市场规模估值将达到3657.1亿美元,到2030年全球数据交易所的市场规模将达到50.9亿美元。数据集成商是一种很主流的中介交易模式。
三、与业务场景融合的数据更有价值
在数据挖掘的跨行业标准过程(CRISP-DM)中,第一点就讲到业务理解,最开始不是从数据出发,而是业务理解。这就带来数据价值评估和数据资产入表难的问题。
大多数时候,列在公司资产负债表上的资产,其使用方式都非常类似。然而数据资产的使用依赖于业务场景,在市场上没有积极买卖数据资产的情况下,我们很难对数据管理的成本和价值进行估算。
评估机器设备、建筑这样的资产,两位独立评估人员得出的结果可能差不多;但对于数据资产,两位独立评估人员得到的结果则可能大相径庭。
再来看折旧的问题。有形资产会折旧,但有些时候数据资产可能老的也很有价值,我们希望用很长的历史数据来帮助我们发现规律。但有些数据过时之后就迅速失去价值,所以数据资产的折旧不好计算。
另一方面,合规性不佳的数据很快就从资产转为负债。名噪一时的剑桥分析公司曾经以数据为生存基础,但在2018年5月Facebook数据泄露问题发生后两个月内,这家公司就申请破产。设备或建筑等有形资产并不是这样。
现在要数据资产入表,在数据交易所登记时需要登记数据价值,这实际上很难日常操作。这不仅需要具体问题具体分析,还面临入表之后不能经常修改的情况。但数据资产价值本身是动态化的,具有很高的复杂性,也并不存在一个公允价值。
四、对公共数据运营的启示
如果只是对公共数据提供访问,可能并不能确保刺激创新。日本的经验可为我们提供一些参考。日本由中央政府举办公私圆桌会议,为希望利用数据的人、私营公司和持有数据的单个部委提供直接交流的机会,直接沟通数据要怎么用,我们能做什么。
我国浙江黄岩模具(塑料)的“产业大脑”是另外一个很好的例子,政府利用数据为当地的模具产业服务。由黄岩区经科局联合区检察院商务局、市监局等九家单位协同推出,内容涵盖跨境交易、共享检测、行业标准等不同的场景,形成跨部门、跨行业、跨层级的多跨协同应用。目前“产业大脑”已经在移动端开发出“模塑学院”“模法服务”“供应链金融”“模具专利”“跨境交易”等10个应用子场景,切切实实地把数据和业务场景进行了融合。
对于企业而言,业务理解对数据挖掘很重要,因此深耕业务、深耕行业很重要,在此基础上结合数据分析更有价值,而不是纯粹由技术人员去做分析。
整理:文展春
特别声明
以上所刊登的文章仅代表作者本人观点,本公众号为非营利性平台,刊发文章仅作学术交流使用,不构成投资决策之建议。
对本公众号原创之文章,如需转载或引用该等文章的任何内容,请私信沟通授权事宜,并于转载时在文章开头处注明来源于公众号“经济学原理”及作者姓名。未经本公众号授权,不得转载或使用该等文章。
对非本公众号原创之文章,任何商业运营公众号如转载,请向原创公众号或/及原出版机构申请许可。